检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化

龚鸣清, 叶煌, 张鉴, 卢兴敬, 陈伟

计算机应用 2019, 39 (6): 1557-1562. DOI: 10.11772/j.issn.1001-9081.2018122608

摘要（700）

PDF （1002KB）（555）

针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题，提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法（SGEMM）算法优化方案。首先，确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率；其次，针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术；最后，根据语音方向的神经网络中常见的三种矩阵模式设计测试实验，实验中使用RK3399硬件平台运行程序。实验结果表示：方阵模式下单核计算速度为10.23 GFLOPS，达到实测浮点峰值的78.2%；在细长矩阵模式下单核计算速度为6.35 GFLOPS，达到实测浮点峰值的48.1%；在连续小矩阵模式下单核计算速度为2.53 GFLOPS，达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中，程序的实际语音识别速度取得了显著提高。

参考文献 | 相关文章 | 多维度评价

Select

2. GPU集群下第一原理非局部映射势能计算

付继芸贾伟乐曹宗雁王龙叶煌迟学斌

计算机应用 2013, 33 (06): 1540-1552. DOI: 10.3724/SP.J.1087.2013.01540

摘要（1119）

PDF （793KB）（667）

平面波赝势密度泛函（PWP-DFT）计算是材料计算中应用最广泛的方法,其中映射计算是PWP-DFT方法求解自洽迭代中重要的一部分。针对映射势能计算成为软件加速的瓶颈，提出了针对该部分的图形处理器(GPU)加速算法，其中考虑GPU的特点:1）使用了新的并行机制求解非局部映射势能；2）重新设计了数据分布结构；3）减少内存的使用；4）提出了一种解决算法中数据相关问题的方法。最终获得了18~57倍加速，使每步分子动力学模拟最终降为12s。详细分析了该模块在GPU平台上的测试时间，同时对该算法在GPU集群上的计算瓶颈进行了讨论。

参考文献 | 相关文章 | 多维度评价